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Menetelma ja laitteisto datan kaantamiseksi - Metod och apparatur for att 
transf ormera data 



Keksinto koskee yleisesti datan luokittelua ja kasntamista tai muuntamista toiseen 
5 alkuperaista vastaavaan muotoon. Eiityisesti keksint5 koskee kielen kaantamista. 

Luonnollisten kielten automaattiseen kaantamiseen kaytetaSn nykyisin paSasiassa 
kahta tekniikkaa: konekaannOs- ja kaannOsmmstitekniikkaa. Kaannettavaa kokonai- 
suutta kutsutaan yleisesti syfitetietovirraksi ja syStetietovirta sisaitaa tunnistettavissa 
olevia elementteja. Luonnollisen kielen tapauksessa syOtetietovirta sisaltas. siis lau- 
10 seita ja/tai virkkeita ja tunnistettavat elementit ovat sanoja mahdoUisine etu- ja jalki- 
liitteineen. 

Konekaannostekniikassa syOtetietovirran elementit analysoidaan hyvin tarkasti 
maaritetyn saannOstOn mukaisesti. Analysoiduista elementeista tuotetaan jarjestel- 
maan ohjelmoitujen, tuhansien jasennyssaantojen avuUa alkuperaista lausetta tai 

15 virketta vastaava jasennyspuu, joka kuvaa elementtien riippuvuutta toisistaan ja toi- 
sista alipuista. Esimerkiksi lauseen "kissa kavelee" elementti "kissa" tuUdtaan sub- 
jektiksi, joka riippuu predikaatista "kavelee". Nama riippuvuussuhteet n[iaaritetaan 
yksinkertaistettujen saantOjen mukaan edeten yleisista yksityiskohtaisempiin, esi- 
merkiksi tassa esimerkkilauseessa aluksi tarkastellaan kokonaista virketta, joka 

20 koostuu tassa yhdesta lauseesta. Lause sisaitaa predikaatin ja niin sanotun nonainaa- 
lifraasin. Tama nominaalifraasi sisaitaa subjektin ja mahdoUiset sita kuvaavat ad- 
verbiaalit. Lauseen subjekti on substantiivin nominatiivi ja yksikko, predikaatti on 
verbin preesens ja yksikko. Nain tuotettu jasennyspuu muunnetaan sitten kohdekie- 
len jasennyspuurakenteeksi erillisten muuimossaantojen avuUa. Kohdekielen. jasen- 

25 nyspuurakenteesta tuotetaan eri vaiheiden jaUceen kohdekielisen lauseen tai virk- 
keen rakenteen mukainen elementeista koostuva kokonaisuus. KaannSksen tuotta- 
miseksi on siis kaytettava vahintaan kohnea eri saantSkantaa jasennyspuiden tuot- 
tamiseen, muuntamiseen ja generoimiseen, seka joukkoa erillisia analysointi' ja ge- 
nerointisaantCkantoja tai muita vastaavia mekanismeja. 

30 KaannOsmuistitekniikassa elementteja ei analysoida, vaan syotetietovirran kokonai- 
sia lauseita tai virkkeita verrataan tietokannassa oleviin elementtijonoihin merkki- 
jonovertailuna. Jos samanlainen merkki- tai elementtijono lOydetaan, sen kaannos 
on tahan jonoon assosioitu vastinkielinen merkki- tai elenienttijono, ja se tuloste- 
taan vasteena syotetietovirran kaannospyyntOon. KiaannOsmuistitekniikkaa hyodyn- 
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tava.t jarjesteln^t ovat tehokkaiminillaan, kun saman tekstin eri versioita kaSnnetaan 
uudestaan tai kun kaannettSvat tekstit sisSltavSt samoja lauseita. Olemassa olevista 
tekniikoista kaaimOsmuisti on melko tehokas ja kayttttkelpoinen poistamaan rutiini- 
tySta. Kaann5smuistit eivMt kuitenkaan kykene kaSntamaan taipeeksi tarkasti aiem- 
5 masta poikkeavia lauseita, vaan kaantaja joutuu muokkaamaan tekstia aina, kun se 
sisaltaa uuden kaantamatt(3man lauseen. 

Koneksanndstekmikkaa voidaan soveltaa niin sanotussa esimerkkiperusteisessa ko- 
nek^nnOksessa (example-based machine translation, EBMT), jonka perusidea on 
se, etta kaannetaan syStevirke matkimalla samantapaisten valmiiden esimerkkien 

10 kaannOksia. Esimerkkiperasteisessa konekaannoksessa yritetaan siis tuottaa loppu- 
tulos yhdistamalla kahden eri kaannSksen osia yhdistSmaiia niiden jasennyspuita 
syOtetietoviitaa vastaavaksi jasennyspuuksi. Muita tunnettuja tapoja perinteisen 
konekaannQstekniikan ongehnien kiertSmiseksi ovat muistiperasteinen (memory- 
based MT), analogiaperusteinen (analogy-based MT) ja tapauspenisteinen (case- 

15 based MT) konekaantanrinen. 

Tilastolliset kaanndsjarjestebnat perastuvat sanojen esiintymisen todennakOisyyteen 
valmiissa kaanndksissa. Esimerkiksi voidaan etsia vastaavuudet alkuperaiskieUsista 
ja kaannetyista virkkeista, ja laskea todennak5isyys sille, kaantyykO alkuperainen 
sana yhdeksi vai kahdeksi sanaksi vai jaakS se kaannSksesta kokonaan pois. Taman 
20 perusteella tuotetaan kaannOssaanndt. 

On mySs olemassa erinaisia rajoitettuihin kieliin tai alikieliin perustuvia jarjestel- 
mia. Niiden kSyttO on kuitenkin hyvin kurinalaista, silla kayttajan antaman syOtteen 
on oltava tarkoin maariteltyjen saantOjen mukaista. Tama vaatii erityista rankautu- 
miskykya ja -halua kayttajaita. Koulutettu kSyttaja paasee kuitenkin lahelle ideaa- 
25 lista tulosta tallaisessa rajoitetussa jarjestelmassa, eika kSyttajan apua yleensa kaan- 
n3svaiheessa tarvita. 

Tunnetun tekniikan mukainen konekaantaminen edellyttaa monimutkaisten saan- 
nOstjjjen ja semantiikan ohjebnointia, jotta yksittaisten sanojen lauseyhteydet saa- 
daan esille. Tama vaatii edelleen raskasta ohjelmointia ja tyypillisesti viela ammatti- 
30 laisen tiiiirintga Esimerkki-, muisti-, analogia- tai tapausperusteisten konels^annSs- 
ten soveltaminen vaatii useiden vaikeasti toteutettavien osavaiheiden suorittamista. 
Tarvitaan alkuperaisen ja kaanndskielisen kielen jasennyspuut, jotta voidaan etsia ja 
ohjelmoida virkkeiden vastinosapuut. Tama asettaa vaatibmuksensa tiedon esitys- 
muodolle ja tuotetut puurakenteet ovat aina raskaita toteuttaa ja Is^yttSSi. 



Jos kaannOsmuistijarjesteliim ei voi tuottaa kaann5sta kayttajan syQtteeseen, se joko 
antaa vaihtoehtoisia tuloksia, joista kayttaja voi vaUta haluamansa tai pyytaa kaytta- 
jaa sySttamaan oikean kaannoksen. Usein kayttaja muuttaa kaaimosvirkkeen raken- 
netta niin paljon, etta katonesmuistijarjestelmaan taUennetaan vain kokonaisen 
virkkeen tai lauseen kaannSsvaste. Kaannosjarjestelmien opettamiseen tarvitaan 
tyypiUisesti suuri maara oikeanlaisia valmiita kaannSksia. KaannOsmuistitekniikan 
ongelmana on sen kyvyttQmyys kaantaa aivan uusia, aiemmin kaantamattbmia lau- 
seita. Ongelmaa on yritetty ratkaista yhdistamaM tunnettuja MannOksia uusiin syOt- 
teisiin, muun muassa neuraaUvcsrkkoja ja tilastoUisia todennakOisyyksia hyvaksi 
kayttaen. Tulokset eivat kuitenkaan ole oUeet lupaavia, silia kaanniisnmistit eivat 
kykene muokkaamaan tarkasti oikeaa tulosta samankaltaisen lauseen perasteeUa, 
vaan yleensa kopioivat syOtelauseeUe lahimman vastaavan kaannOsvasteen seUaise- 
naan lopputulokseksi. 

Kaupallisesti k^nnSsmuistitekniikkaa kayttavat tuotteet ovat menestyneet kone- 
kaannOstekniikkaa hyOdyntavia paremmin. koska jalkimmainen vaatii raskasta pro- 
sessointia ja siten laitteet ovat tyypiUisesti joko liian hitaita tai liian kalliita. Mo- 
lempien tekniikoiden kaupaUistamisen ongelmana on suuri tyOmaSra sovitettaessa 
jarjestelmia uusiUe toimialoiUe tai mukautettaessa mita kielen rakenteiden ja sanas- 
ton kehittyessa. 

Keskeiset ongelmat olemassa .olevien ratkaisujen takana ovat koneilta vaadittava te- 
hokkuus ja nopeus seka menetehnan kattavuus eU se, kuinka suuri osa kaannoksista 
on riittavan hyvia. Nan^ kaksi ovat Usaksi sidoksissa toisiinsa. Periaatteessa kaan- 
nGsjarjestelman pitaisi kyeta kaanmmaan miljardeja mahdoUisia lauseita, jotka syn- 
tyvat kymmenien tuhansien sanojen lukuisista erilaisista kombinaatioista. Esimerk- 
kipdhjaisissa jarjestelmissa tata valtavaa vaihtoehtojen maaraa pyritaan haUitsemaan 
taUentamaUa paljon esimerkkeja, joista jokaista voidaan sovittaa moneen kaannetta- 
vaan tekstiin. Esimerkiksi 10 000 esimerkkia, joista jokainen sopii 10 000 katonet- 
tavaan kohteeseen, kykenee kasittelemaan 10 000^ = 0,1 miljardia potentiaaHsta 
kaannettavaa lausetta. Lisaksi esimerkkipohjaisissa jarjestelmissa voidaan soveltaa 
segmentointia, eU jakaa kaannettava sySte pienempiin psiin. joUoin erilaisia kombi- 
naatioita on vahenunan. Taita pohjalta esimerkkipohjaisten kaannOsjarjestelmien 
ongehnakokonaisuus voidaan ryhmitelia esimerkiksi seuraavaan nelj^ osaongel- 
maan: 

1. Esimerkkien n^ara. KaannOsjarjestelman taytjo' kyeta hallitsemaan suurta maa- 
esimerkkeja tehokkaasti, seka kyeta hakemaan sopivia esimerkkeja nopeasti 
suurista tietokannoista. Tahan pystyvat perinteiset kaannSsmuistit, mutta eivat 



jasennyspuita tai muita tekstimuotoa monimutkaisempia esitysmuotoja kayttavat 
konekaannOsjarjestelmat tai vastaavia tekniikoita kayttavat esimerkkipohjaiset 
kiumndsjarjestelmat. 

2. Esimerkkien yleistys, haku ja sovitus. Yhden esimerkin tulee sopia moneen 
5 kaannettavaan kohteeseen (Midekielen lauseeseen tai sen osaan), sopivan esi- 
merkin hairn tietokannasta on oltava nopea ja sovituksen tehokas. Kaaim5smuis- 
tit eivat tahSn kykene, silia ne sovittavat kohteen vain tekstivertailulla eivatka 
kykene yleistykseen. Sen sijaan monet esimerkkipohjaiset jarjestelmat pystyvat 
sovittamaan saman esimerkin moneen kaSnnettavaan kohteeseen soveltamaUa 

10 kieliteknologiaa. Niissa sovitus on yleensa monivaiheinen, kayttaa laskennalli- 
sesti hankalia menetehnia, hitaita ja monimutkaisia hakuja seka rajaavia heuris- 
tiikkoja, jolloin niiden skaalattavuus on huono, eli osaongehna 1 ei ratkea. 

3. Segmentointi ja segmenttien yhdistely. Jos teksti kaSnnetMn sana kerraUaan, tar- 

vittavien esimerkkien mSara on pieni, mutta kaSnnCksen laatu erittain huono. Jos 
15 esimerkin (segmentin) koko on lause tai virke, kaSnnOs voidaan yleensa tehda 
laadukkaasti. mutta tarvittavien esimerkkien masra nousee miljardeihin (ilman 
sovitusta - kts. osaongehna 2). Tarvittavien esimerkkien m^aa voidaan pienen- 
taa oleeUisesti kayttMmaUa lausetta lyhyempia segmentteja. Tallein segmenttien 
yhdistely tulee.uudeksi ongehnaksi ja epatarkkojen kaannOsten osuus Usaantyy. 
20 Aina kokonaisen esimerkkilauseen tai virkkeenkaan kayttO ei takaa oikeeUisuut- 
ta, silia lauseen/virkeen oikea tulkinta voi vaatia jopa lauseyhteyden tai kappal- 
leen ulkopuoUsta kontekstia tai semanttista maaihnanmalUa. Erityista tuUdntaa 
vaaditaan esimerkiksi runoja kaannettaessa. Riippuen kaytettavasta yleistystek- 
niikasta (osaongehna 2) "turvalUsen" segmentomnm tekeminen voi olla hel- 
25 pompaa.Toisaaltauseinriskivaarastakaann5ksestaUsa[antyy. 

4. BCaanriasvasteen muokkaaminen. Jos esimerkkipohjaisessa kaannosjarjestelmassa 

kaytetaan vain kaannSseshnerkkeja ja niiden kaann5svasteita tekstimuotoisina, 
ihnan segmentointia, ei lahdekieUsen tekstin kaannosvastetta tarvitse muokata. 
Jos kaytetaan "turvallista" segmentointia (osaongehna 3), kaannQsvaste voidaan 
30 tehda yhdistamalia segmenttien kaannokset. Jos taas kaytetaan yleistysta (osa- 
ongehna 2), tai lyhyiden segmenttien yhdistelya, kaannSsvasteen muokkaami- 
nen voi olla hyvin hankalaa. 

Tunnetuilla menetehniim kaikkien naiden neljan osaongehnan ratkaisu ei ole onnis- 
tunut samalla kertaa eU kokonaisuus ei toimi. OannGsmuistijarjestehnat ratkaisevat 
35 osaongehnat 1 ja 4, mutta keinojen puuttuessa osaongehnaan 2 niilta puuttuu yleis- 



tettavyys. TutkimukseUisissa esimerkkipohjaisissa kaannSsjarjestelmissa esite^ 
ratkaisumaUeja osaongelmaan 2. Esimerkiksi tunnettu kaannOsohjelma ReVerb 
(Collins, B., Cunningham, P.. Veale, T., An Example-Based Approach to Machine 
Translation, Proc. of AMTA conference, October 1996, pp.1-13) pyrldi ratkaise- 
maan osaongehnat 2 ja 4 yleis^mMlia esimerkkeja sanojen lauseenjasennyksen 
avulla ja ottamaUa kaytetrnvMn esimerkin valinnassa huomioon kaSnnOsvasteen 
muokattavuuden. Sen kayttamSii haku- ja sovitusmekanismin monimutkaisuus ja 
parinsadan esimerkin tietSmyskanta eivat kuitenkaan nayta skaalautuvan osaongel- 
man 1 ratkaisemiseksi. Pangloss (Brown, R.D.. Example-Based Machine Translati- 
) on in the Pangloss System. Proceedings of the 16th International Conference on 
Computational Linguistics, August 1996) taas l^yttaa hybridimallia, jossa pohjana 
on tekstipohjaisen kaannOsmuistin ratkaisu osaongehnaan 1, jonka yleisyytta on U- 
satty Myttamalia esimerkiksi pSivamaarien k^tamiseen sovimspohjia, jotka tun- 
nistavat ja kaantavat kaikki paivamaarat. Tama malU on suhteeUisen turvallinen 
5 osaongelman 4 suhteen, mutta sen yleistettavyys (osaongehna 2) jaa suhteellisen 
vahaiseksi, silla kaikkia syQtteita ei kyeta kaantamaan. Pangloss kayttaakin erillista 
konekaannOsjarjestelmaa kaantaakseen loput syStteet ja saavuttaakseen riittavan 
yleistettavyyden. KaupaUisesti parhaiten menestynyt tuote, Trados 
(http://www.trados-com), ratkaisee kaannOsmuistina osaongehnan 1 ja yrittaa sovel- 
20 taa neuraaUlaskentaa osaongelman 2 ratkaisemiseen. Tassa ei kuitenkaan onnistota. 
siUa neuraalilaskenta ei riita osaongehnaan 2 ja, ennen kaikkea, osaongehna 4 jaa 
ratkaisematta, samom 3. Yleensakkaan i^ssa jarjestehnissa ei juuri kyeta hySdyn- 
mmaan segmentointia, poikkeuksena IShinna Pangloss, jossa keskunaarainen seg- 
mentd on noin kohnen sanan pitumen niille syStteille, joita se kykenee kasittele- 
25 maan. 

KeksinnOn tavoitteena on tuottaa tehokas, joustava menetehna ja jSijestely datan 
luokittelemiseksi ja edelleen kaantamiseksi. Lisaksi keksinnbn tavoitteena on tuot- 
taa kaannOsjarjestely, joka on helposti mukautettavissa uudenlaisim syStetietovir- 
toihin ja rakenteisiin. 

30 Tavoite saavutetaan siten, etta dataa kasitell^ sopivan kokoisina segmenttema, te- 
hokkailla analysointimenetelmilia. Jokainen segmentti saa analysomtitulosten pe- 
rusteella yksikasitteisen luokituksen, jota voidaan kayttaa erittain tehokkaasti seg- 
menttien vertailuun ja suurten tietamyskantojen hakuavaunena. Tehokkuuden ansi- 
osta tietamyskannan kokoa ja esimerkkien masraa voidaan Usata edelleen. mika pa- 

35 rantaa kattavuutta ja laatua. 
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Keksiiin5Ue on timnusomaista se, mita sanotaan itsenSisten patenttivaatimusten 
tunnusmerkkiosissa. KeksinnOn eduUisia suoritusmuotoja on kuvattu epSitsenSisissa 
patenttivaatunuksissa. 

Keksimi5n edullisen suoritusmuodon mukaan syatetietoviiran kaantSminen toiseen 
5 muotoon tapahtuu vaiheittain. Keksinn5n edullisen suoritusmuodon mukaisessa 
menetelmassa kaytetaSn hyvSksi sinSnsa tunnettuja menetelmia syOtetietovirran 
segmentoimiseksi eU jakamiseksi osiin. Kayttekelpoisia segmentbintimenetelmia 
ovat esimerkiksi syQtetietoviiran segmentointi valimerkkien avuUa, lauseina, fraa- 
seina tai valikesanojen avulla, vaikkapa katicaisemalla segmentti ja-sanan jaikeiseen 
10 sanaan tai ennen sivulauseen aloittavia sanoja. KeksinnOn erSSn eduUisen suoritus- 
muodon mukaan kSytetaan sellaista segmentointimenetelmaa, jossa syOtteen jako 
segmentteihin tehdSan siten, etta muodostetut segmentit lOytyvat mahdollisimman 
kattavasti jo tietamyskannassa olevista segmenteista. 

KeksinnSn edullisen suoritusmuodon mukaan aluksi yritetaan kaantaa syStetietovir- 
15 taa mahdollisimman vahan resursseja kuluttavasti, esimerkiksi kaanndsmuistitek- 
niikan avulla. Tyypillisesti ainakin osa syOtetietovirrasta saadaan kaannettya suo- 
raan ja nopeasti. SyOtetietovirran jaijelle jaaneelle osaUe tehdaan kevyt analysointi, 
jossa syatetietoviiran elementeiUe tuotetaan kuUekin jokin analyysitulos. Tassa ha- 
kemuksessa yksittaisen elementin kohdalla puhutaan analyysituloksesta, koko seg- 
20 menttia koskevaa analyysitulosta sanotaan luokittelviksi. Luokitus muodostetaan 
analyysituloksista, esimerkiksi katenoimalla, eli liittamalla yhteen, elementtien ana- 
lyysitulokset ja niiden vaUin Usatyt valikesymboUt yhtenSiseksi merkkijonoksi. Tata 
segmentin luokitusta verrataan tietamyskannassa olevien segmenttien luokituksiin 
tehokkaan indeksi- tai tietokantahaun avulla. Haun tuloksena tietamyskannasta pa- 
25 lautetaan segmentit, joilla on sama tai lahes sama luokitus kuin syStetietovirran 
segmentilla. NSista tietamyskannan segmenteista valitaan yksi syatetietoviiran 
segmenttia parhaiten vastaava segmentti tiettyjen saSntajen perusteella. Segmenteis- 
ta voidaan valita esimerkiksi se, jossa on eniten samoja elementteja kuin Mannetta- 
vassa syatetietovirran osassa. 

30 KaannQksen toloksena palautetaan tietamyskannasta parhaiten syatetietoviiran 
segmenttia vastaavaan segmenttiin assosioitu vastinsegmentti. Syatetietovirran 
segmentin sanat, joita ei ollut tassa parhaiten vastaavassa segmentissa, kaannetaan 
erikseen jollain tunnetulla tekniikalla, esunerkiksi generoimalla sana keirallaan so- 
piva taivutusmuoto sanakirjasta laydetylle vastinelementille. Keksinnan mukainen 

35 luokittelu ja segmenttien vertailu tietitaiyskannan segmentteihin tuottaa hyvia tulok- 
sia teholdcaasti jo melko pienestakin tietamyskannasta. 
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KeksinnSn mukainen menetelma poikkeaa huomattavasti tunnetusta konekaannOs- 
tekniikasta, koska keksinnOssa ei esimerkiksi muodosteta jonkin kieUopin tai sSSn- 
nOstOn mukaista jasennyspuuta syotetietovirrasta. MyOskaan saantoja ei keksinnon 
mukaiseen menetelmaan tarvitse ohjelmoida. Lisaksi keksinnon mukaisesti syotetie- 
5 tovirran elementteja verrataan tietamyskannan elementteihin myOs sellaisenaan, kun 
tunnetuissa konekaanndstekniikoissa elementteja kasitell^ aina analysoituina. 

Keksinnon mukainen menetelma poikkeaa kMnnOsmuistitekmikoista ja esimerkki- 
pohjaisista kaanndsjarjestelmista tarjoamaUa ratkaisun kaikkiin neljaSn esimerkki- 
pohjaisten kaSnndsjarjestelmien ongelmakokonaisuuteen. KaannettSvan syfiteseg- 

10 mentin analyysituloksesta muodostettu luokitus toimii hakuavaimena, joUa haetaan 
tietamyskannasta siihen sovellettavan esimerkkikaannOksen lahdekielen segmentti 
(ratkaisee osaongelmat 1 ja 2). Haku on erittain tehokasta, silia siihen voidaan so- 
veltaa indeksointi- ja tietokantatekniikoita monimutkaisten puuvertailujen ja akti- 
vointijarjestelyjen sijaan. Linkitys esimerkkikaannOksen kohdekielen segmenttiin 

15 muokkaa kaannOsvastetta varsin turvallisella menetelmalla (ratkaisee paljolti osa- 
ongelman 4). Osaongelmien 1 ja 2 ratkettua nykyisin tunnettuja menetelmia pa- 
remmin tietamyskannan kokoa voidaan kasvattaa suureksi tehokkuuden karsimatta 
oleelUsesti, mika parantaa edelleen kattavuutta. Siksi tie^myskantaan voidaan mySs 
lisata lyhyita ja pitkia segmentteja samoistakin esimerkeista. KaSnnSsten laatu taa- 

20 taan kayttSmaiia mahdollisimman pitkia segmentteja, jotka ovat turvallisempia (3 ja 
4) samalla kun lyhyet segmentit takaavat yleistettavyyden ja kattavuuden paremmin 
kuin esimerkiksi neuraalimenetelma tai sanakirjasovitus. Nain segmLentointia voi- 
daan hyttdyntaa kayttamalia tilanteeseen sopivaa segmenttikoa (osaongelma 3). 

Tekstimuotoisten luonnollisten kielien ja formaalien kielien kaantamisen lisaksi 
25 keksinnon edullisia suoritusmuotoja voidaan kayttaa useilla tiedon luokittelua ja 
muuntamista soveltavilla alueilla. Tekstimuotoisen syOtetietovirran kasittelyn lisak- 
si keksinnon erasta edullista suoritusmuotoa voidaan kayttaS myos puhetta tulkatta- 
essa. Kun kaannOs tehdaan ohjelmointikielesta toiseen, on kaSntaminen luonnolU- 
sesti paljon kurinalaisempaa ja syntaksien mukaista. 

30 Keksinnon mukainen menetelma on nykyisia suorituskykyisempi, koska sen vaste- 
aika on oleeUisesti nykyratkaisuja parempi. Lisaksi keksinnOn mukaiset menetelmat 
ovat hyvin mukautuvia eU niita kayttamalia saadaan oikeita tulosvixtoja aiempaa 
suurenraiassa osassa tapauksista oleeUisesti aiempaa nopeammin. Tehokkuuden an- 
siosta myos tietamyskannan kokoa ja esimerkkien maaraa voidaan kasvattaa, mika 

35 parantaa edelleen kattavuutta. Tehokkuuden takia menetelman ei myoskaan tarvitse 
kayttaa Usaheuristiikkoja tai rajoituksia, jotka voivat itse asiassa huonontaa suori- 
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tiiskykya, esimerkkina rajautummen segmentoinnissa jasennyspuun alipuihin tai 
predikaattien poikkeava kasittely hakurakenteissa. Menetelma ei kuitenkaan esta 
taUaisten heuristiikkojen tai Usaysten kayttOa siUoin. kiin ne ovat hyQdyUisia. Mene- 
telma on kaantamisen Usaksi helposti yleistettavissa muidenkin soveUusten kayt- 
tdon, kuten ohjelmointikielikonversioihiii ja monikanavajulkaisuihin. 

Seuraavassa keksintsa ja sen eduUisia suoritusmuotoja selostetaan tarkemmin oheis- 
ten kuvioiden avulla, joissa 

esittaa lohkokaaviona keksinnSn erSan eduUisen suoritusmuodon 
mukaista laitteistojarjestelya, 

esittaa keksinnen eraan edullisen suoritusmuodon mukaista kasitelta- 
vaa sy5tetietovitran osaa, 

esittaa keksinnOn eraan edullisen suoritusmuodon mukaisen tietamys- 
kannan osan rakennetta, 

esittaa keksinnSn eraan edullisen suoritusmuodon mukaista tulostieto- 
virranosaa, 

esittaa vuokaaviona keksinnOn eraan edullisen suoritusmuodon mu- 
kaista menetelmaa datan luokittelemiseksi, 

esittaa vuokaaviona keksinnOn eraan edullisen suoritusmuodon mu- 
kaisen tie^lmyskannan kasvattamista, ja 

esittaa vuokaaviona keksinnSn eraan edullisen suoritusmuodon mu- 
kaista datan kaantamista. 



kuvio 1 



10 kuvio 2 



kuvio 3 



kuvio 4 

15 



kuvio 5 



kuvio 6 



20 kuvio 7 



Kuviossa 1 on esitetty keksinn5n eraan eduUisen suoritusmuodon mukainen laitteis- 
tojarjestely. NayttiJ 101 ja nappaimistO 102 toimivat rajapintana kayttajaUe. Mas- 
samuistissa 105 sailytet^ tietamyskantoja indekseineen, kaytettavia ohjelmia ja 
25 saantSja. Keskusmuistissa 104 taas sailytetaan kuUoinkin kasiteltavaa osaa syStetie- 
tovirrasta ja hakuindeksista. Lisaksi laitteistossa on prosessori 103, joka kasittelee 
dataa ja I/0-liitynt6ja 106, joiden kautta laitteistoon voidaan liittya sen ulkopuolel- 
ta. 

Naytdlia 101 voidaan esittaa kayttajalle suorituksen tuloksia ja/tai vaiheita. Nap- 
30 paimisten 102 avulla taas kayttaja voi syOttaa laitteistoon varsinaisen syOtetietovir- 
ran lisSksi vaikkapa vastine-ehdotuksia sanoille ja lauserakenteille, joita jarjestelma 
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d osaa kaantaa. Kaikki naytoUa 101 esitetmva ja nappaimistoM 102 syOtettava data 
kasitellaan prosessorissa 103. Prosessoriin 103 liitettyjen I/O-kanavien kautta jarjes- 
telma voi my5s oUa yhteydessa muihin jaijestelmiin ja kayttajiin seka lahettaa ja 
vastaanottaa sy5te- ja tulostietovirtoja. KeksinnSn mukaista jarjestelya voidaan siis 
kayttaa useastakin paikasta ja myOs tietoliikenneyhteyden vaUtyksella. 

Keskusmuistissa 104 sijaitsee se osa syOtetietoviirasta, jota kSsiteMan parhaillaan. 
UsSksi keskusmuistissa 104 on kasiteltavSn syStetietoviiran segmentit. Kasiteltava 
syOtetietovirran osa on ryhmitelty osiin eU segmentteihin tiettyjen s^tSjen perus- 
teella, joita kSsiteliaan myehemmin tMssa hakemuksessa. Jarjestelman massamuis- 

10 tissa 105 on tietamyskanta, jossa ovat segmentit ja niiden vastinsegmentit. My5s 
elementeille ja niiden vastinelementeiUe voi olla erillinen tietokanta. Tama element- 
titietokanta voi vastata perinteista sahkoista sanakirjaa, jossa on sanakohtaiset vas- 
taavuudet tai keksinnOn kulloisenkin suoritusmuodon mukaan elementit voivat olla 
vaikkapa matemaattisia ilmaisuja tai formaalien kieUen l^kyja tai parametreja. 

15 Massamuistissa 105 on myos erilaisia kSsittelysaantOja, kuten esimerkiksi segmen- 
tointisaannot, joiden perasteella kasiteltava syotetietovirran osa jaetaan segmenttei- 
hin. Lisaksi massamuistissa 105 on muunnossaantOja esimerkiksi sanajarjestyksen 
muuttamiseksi segmentin ja sen vastinsegmentin valilla, seka tarvittavat ohjelmat, 
kuten esimerkiksi syOtetietovirran kasittelemiseksi tarvittavat analysointi- ja gene- 

20 rointiohjelmat. Analysointibhjelman avulla syStetietovirran elementeille tuotetaan 
analyysitulokset. Generointiohjelma puolestaan tuottaa analyysituloksen avulla tu- 
lostietovirran elementin. Kuvion 1 laitteistojarjestely on tyypillinen keksinnSn mu- 
kaiselle jarjestelylle, mutta alan anmiattUaiseUe on ilmeista, etta keksinnbn suori- 
tusmuodoista riippuen kokoonpano voi olla erilainenkin. Laitteisto voi sijaita PC:lia 

25 (personal computer), verkon palvelimella tai laitteiston eri osat voivat sijaita fyysi- 
sesti eri paikoissa, kunhan yhteydet niiden valilla ovat riittavaii nopeat. 

Kuvio 2 esittaa eraan eduUisen suoritusmuodon mukaista kasiteltavaa syOtetietovir- 
ran osaa 200, joka siis tyypillisesti tallennetaan keskusmuistiin kasittelyn ajaksi. 
SyStetietovirta on tassa suoritusmuodossa luonnoUista kielta ja syOtetietovirran ker- 
30 ralla kasiteltava osa 200 on tyypiUisesti lause tai virke. TamS l^siteltava osa 200 on 
jaettu elementteihin 211, 212. 213. 221. 222. 223, jotka ovat luonnolHsten kielten 
tapauksessa yleensa sanoja mahdoUisine etu- ja/tai jaUdliitteineen. Sanaa edeltava 
maarainen tai epam^ainen artikkeU kuuluu tyypiUisesti samaan elementtiin itse 
sanan kanssa. 

35 Kasiteltavan syOtetietovirran osan 200 elementit 211, 212, 213, 221, 222, 223 on 
kuviossa 2 jaoteltu kahteen segmenttiin 210, 220. Tassa tapauksessa segmentointi 
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on tehty tunnistamalla "vaikka"-elementti, joka nyt kuuluu sellaisten sanojen lis- 
taan, jotka aloittavat uuden segmentm. Vastaavia listoja esiintyy yleisesti luonnol- 
lista IdeM kSsittelevassa kiijallisuudessa. Segmentit voivat koostua yhdesta tai, ku- 
ten kuvassa on esitetty, useammasta elementistS. Segmentointi tehdaan tiettyjen 

5 eduUisesti massamuistissa olevien saantSjen perusteella, jotka voivat perustua esi- 
merkiksi tiettyihin helposti tumiistettaviin sanoihin tai kMsiteMvSn syiJtetietovirran 
osan ja tietMinyskannan sis911&ii vastaavuuteen. &aita kSyttOkelpoisia segmentointi- 
saant5ja on esitelty tarkemmin esimerkiksi patenttijulkaisussa H 103156. Esimer- 
kiksi suomen kielelle voidaan kSyttaa csrinSisia segmentointisaantfija. Eras tyypilli- 

10 nen ratkaisu on, etta segmentiksi valitaan pisin vastaava segmentti tietamyskannasta 
tai fraasisanakirjasta. Kvin mahdollisimman paljon elementteja kasitellasn yhdelia 
keitaa. luokittelu tehostuu ja ksantamiseen liittyvat segmenttien yhdistelyn ja kaan- 
nfisten muokkaamisen ongelmat voidaan vSlttaa paremmin. Usein segmentti kat- 
kaistaan vaiimerkkiin tai sanaan, joka aloittaa sivulauseen tai fraasin. Segmentointi 

15 voidaan tehda myOs kSyttajan ohjeiden ja valintojen mukaisesti. Lisaksi segmentti 
voidaan rajata tekstityypin tai ominaisuuksien perusteella, esimerkiksi siten, etta H- 
havoidut perSkkaiset sanat kSsitellaan yhtena segmenttina. My5s usean tmmistamat- 
toman elementin jono voidaan valita yhdeksi segmentiksi. 

On selvaa, etta segmentoiatis^amiOt ovat kielikohtaisia ja vaihtelevat jonkin verran 
20 kielittain. Yleisena, lahes kaikkiin luonnollisiin kieliin soveltuvana saantOna voi- 
daan pitaa sita, etta valitaan segmentiksi jokin jo tietamyskannassa oleva segmentti. 
Lisaksi jos kasiteltavan syOtetietoviiran keskelia tai lopussa oleva segmentti tunnis- 
tetaan jonkun saanndn perusteella, sita edeMvaa elementtijonoa ja sita seuraavaa 
elementtijonoa voidaan l^itella erilUsina segmentteina. Formaalien kielien tapauk- 
25 sessa elementit ovat tyypillisesti merkkijonoja tai yksittaisia kaskyja. Segmentit 
voidaan erotella esimerkiksi koostuviksi kaskyista ja niiden parametreista tai seg- 
mentti voi paattya rivinvaihtoon tai muuhun kaytettyyn merkkiin, merkkijonoon tai 
erikoismerkkiin. 

Kuviossa 3 on esitetty osa keksinn5n eraan eduUisen suoritusmuodon mukaisesta 
30 tietamyskannasta. Tietamyskaimassa on kaksi taUennettua segmenttiS: segmentti 3 1 , 
joka sisaitaa elementit 311, 312, 313, ja segmentti 32, joka sisaltaa elementit 321, 
322, 323. Segmentin 32 elementit 321, 322, 323 on analysoitu ja niiden analyysin 
tulokset on merkitty elementin alle. Tassa luonnollisen kielen esimerkMtapauksessa 
elementti 321 "kissa" on analyysin perusteella substantiivi (noun), yksikkO (sg, sin- 
35 gular), nominatiivi (nom). Elementti 322 "kavelee" on analysoitu verbiksi (verb) 
yksik5n kolmannessa persoonassa (sg 3). Elementti 323 "katolla" on substantiivin 
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(noun) yksikon (sg) adessiivi (ades). LuonnoUiseUe kieleUe on tSssS tehty leksikaa- 
linen (sanastollinen) tai morfologinen (muoto-opillinen) analysointi joUain tunnetul- 
la tehokkaalla menetelmalia. TMnmn menetelman etuna on se, etta kaSnnOsvasti- 
neen tuottaminen sanoiUe. joita ei ennestSSn ISydy tietSmyskannasta. onnistuu hy- 

5 vin naiden elementeiUe annettavien morfologisten leimojen perusteella. Vaihtoeh- 
toisesti voidaan kayttaa esimerkiksi syntaktisia Causeopillisia, syntaksiin perustu- 
via) tai semanttisia (merkitysopimsia) sSSntSja. FormaaUen kielten tapauksessa 
saannOt voivat perustua esimerkiksi kielen formaaliin esitystapaan ja matriisiele- 
mentteja kasiteltaessa analyysi voi perastua matriisin normiin, matriisin esittaman 

10 kuvan valoisuuteen tai matriisia esittavan kosinimuunnoksen kolmeen ensimmai- 
seen kertoimeen. Vaikka keksinnOn mukaisesti elementeiUe tuotetaan tietyt ana- 
lyysitulokset, mitaan jSsemiyspuita ei muodosteta. 

Kuvion 3 segmentti 33 on tietSmyskannan yksi vastinsegmentti. Tassa on kuvattu 
vastinsegmentti tietamyskannan segmentille 32. Naiden segmenttien 32 ja 33 vas- 

15 taavuustiedon perasteella elementtia 321 vastaa elementti 331, elementtia 322 vas- 
taa elementti 332 ja elementtia 323 vastaa elementti 333. Vastinelementtien ana- 
lyysitulokset eivat valttSmatta ole samat eri kielissa eika myOskaan niiden jSrjestys 
tai lukumaara. TyypilUsesti vastinsegmentti tai segmenttien vaiinen assosiaatiotieto 
sisaltaa jarjestystiedon. joka kertoo, missa sanajarjestyksessa, tai yleisemmin ele- 

20 menttijarjestyksessa, vastaavan segmentin elementit voivat olla. Tata jarjestystietoa 
ei ole esitetty kuviossa 3. Vastinsegmentteja voi oUa useampiaMn, my6s yhdelia 
kieliparilla. TallOin vastinsegmenteista yleensa yksi on optimaalisin vastinsegment- 
ti, mika tarkoittaa voi esimerkiksi yleisinta, kaytetyinta tai asiayhteydessa suositel- 
tavinta vastinsegmenttia. Muitakin vaihtoehtoisia vastinsegmentteja voidaan kaan- 

25 nOsta muodostettaessa kayttaa. Kim vastinsegmentteja on useampia, assosiaatiotie- 
don on Usaksi sisallettava tieto siita, mihin vastinsegmenttiin mikakin jarjestystieto 
kohdistuu. Esimerkiksi suomenkieUsessa segmentissa englanninkieHseen vastin- 
segmenttiin vuttaava assosiaatiotieto voi sisaltaa jarjestystiedon, jonka mukaan 
suomenkielisen segmentin ensimmaista elementtia vastaa englanninkielisessa en- 

30 simn^en elementti. toista kolmas ja kolmatta toinen elementti. Vastaavan suo- 
menkieUsen segmentin saksankieUseen vastinsegmenttiin viittaava jarjestystieto voi 
oUa sellainen, etta ensimmSiselle suomenkielen elementille ei ole lainkaan vastinet- 
ta, toista vastaa neljas saksankielinen elementti, kolmatta kolmas ja naiden Usaksi 
vastinsegmentissa on kaksi muuta elementtia sen alussa. Formaaleja kieUa kasitelta- 
35 essa jarjestystieto on oleellinen ja on t^keaa assosioida kielten toiminnaUisesti toi- 
siaan vastaavat osiot toisiinsa. 
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TarkasteUaan kuviossa 2 esitetyn syOtetietovirran 200 ensimmaisen kasiteMvan 
osan eU segmentin 210 "koira kavelee kaduUa" kaantamista englanninkieUseksi ku- 
viossa 3 esitetyn tietamyskannan avulla keksinnOn eduUisen suoritusmuodon mu- 
kaisesti. Aluksi syOtetietoviiran 200 segmentteja verrataan tietamyskannan seg- 

5 mentteihin. Esimerkkina olevassa tapauksessa elementit ovat luonnoUisen kielen 
sanoja, joita kasiteliaan tassa vertailussa segmentin kokoisina yhtenSisina elementti- 
jonoina. TaUainen jono voidaan muodostaa eri tavoin, kuten esimerkiksi vain yhdis- 
tamalla segmentin elementit toisiinsa tai laittamalla elementtien vaiiin jokin ennalta 
sovittu merkki. KeksinnSn kannalta on oleellista, etta syOtetietoviiTan segmentti on 

10 veirattavissa tehokkaasti tietamyskannan segmenttiin, eU segmentit ovat saman 
muotoisia. Tehokkaaseen vertailuun voidaan Is&ytXM esimerkiksi tunnettuja indek- 
sointitekniikoita tai tiedonhallintajarjestelmien tarjoamia indeksointi- ja levynkasit- 
telyn optimointimekanismeja. 

Tietamyskannan ensimmainen segmentti 31 ei vastaa syotetietovirran 200 segment- 
15 tia 210. Nailia segmenteilia on sama ensimnMinen elementti 211, 311, mutta tassa 
vertailu tehdaan segmentiUe kokonaisuutena. Tietamyskannan toinenkaan segmentti 
32 ei vastaa sydtetietoviiran 200 segmenttia 210, vaikka naidenkin segmenttien toi- 
set elementit, 212 ja 322, ovat samat Symetietoviiran segmentin vertailua tieta- 
myskannan segmentteihin voidaan tehostaa kayttSn^ tunnettuja indeksointi- ja 
20 hakumenetelmia. MikaU elementeiltaSn tSysin vastaavaa segmenttia ei tietamyskan- 
nasta lOydy, sy5tetietovirran 200 segmentin 210 elementit 211, 212, 213 analysoi- 
daan ja jokaiselle elementiUe saadaan jokin analyysitulos. Tan^ jalkeen tarkastel- 
laan edeUeen segmenttia luokiteltuna kokonaisuutena. Nyt tutkitaan yhtenaista seg- 
mentin pituista, sovimlla tavalla muodostettua jonoa analyysituloksia eU segmentin 
25 luokitusta ja verrataan sita tietamyskannan vastaaviin analyysitulosjonoihin eU luo- 
kitteluihin. Xanfin vertailun mloksena syStetietovirran 200 segmenttia 210 vastaa 
tietamyskannassa segmentti 32. Tietamyskannan segmentille 32 haetaan vastinseg- 
mentti 33 tietamyskannasta ja analyysitulosten perusteeUa 15ydetyn tietamyskannan 
segmentin 32 elementteja 321, 322, 323 verrataan syOtetietovirran 200 vastaaviin 
30 elementteihin 21 1, 212, 213. Naista elementeista toisiaari taysin vastaavat keskim- 
n^set, eU mlostietovirta koosmu elementeista, joista keskimmaiselle ISytyy vas- 
tinelementti. Syotetietovirran ensimn^seUe ja viimeiseUe elementiUe muodostetaan 
tulostietovirtaan vastinelementit esimerkiksi hakemaUa syStetietovitran elementiUe 
vastinelementti elementtien ja vastinelementtien tietokannasta ja generoimaUa tark- 
35 ka vastinelementin analyysituloksen mukainen elementtimuoto raiUiseUa generoin- 
tiohjelmaUa. Suoritusmuodosta riippuen edeUa esitetyt Mann5svaiheet voidaan suo- 
rittaa kuUekin l^iteMvan syotetietovirran osan segmentiUe alusta loppuun tai koko 
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kasiteltavaUe sy5tetietovirran osaUe kukin vaihe segmentti kerrallaan. EdeM esite- 
tyssa suoritusmuodossa edeUa esitetyt kaannOsvaiheet suoritetaan seuraavaksi kuvi- 
on 2 toiselle segmentille 220. 

Edullisen suoritusmuodon mukainen tulostietovirran osa on esitetty kuviossa 4. Ku- 

5 viossa 4 on mydetty syOtetietovirtaa vastaava segmentti luokittelun perusteeUa ja 
syStetietovirran elementille on loydetty tietamyskannasta vastinelementti 402. Ele- 
menteille 401 ja 403 lOydettiin tietamyskannasta vastaava analyysitulos, jonka pe- 
rusteeUa kyseisista runkosanoista, substantiiveista ei ole tietoa, mutta muoto on sa- 
ma kuin vastinelementtien analyysituloksissa maaritetty. Tama tarkoittaa sita, etta 

lO sanan liitteet eU pre- ja postpositiot ovat samat kuin analyysitulosta vastaavalla 
muodolla. Tyypillisesti tSma puuttuva osa kysytaan kayttajalta, mutta se voidaan 
my5s esimerkiksi hakea jostain sahkOisesta sanakirjasta. Kuviossa 3 esitetty seg- 
menttien tietamyskanta ja vastinsegmenttien tietamyskanta ovat keskenasn symmet- 
riset, joten niita voidaan l^ytaa kaksisuuntaisesti, eli syCtetietovirta voikin olla vas- 

15 tinsegmenttien muotoista ja tulostietovirta tietSmyskannan segmenttien muotoista. 
Vastaava kaksisuuntaisuus voidaan toteuttaa myOs useamman kielen kesken seka 
rinnakkaisesti. etta sarjamuotoisesti. Rinnakfcaiset kielet ovat tasa-arvoisia ja kaan- 
nSksen syOte- ja kohdekielet voidaan valita nSista. Sarjamuotoisessa jarjestelyssa 
esimerkiksi kolmas kieli voi toimia niin sanottuna valikielena, jonka kautta kaannOs 

20 kahden muun kielen valilia aina tehdasn. 

Kuviossa 5 on esitetty eraan edullisen suoritusmuodon mukainen menetelma datan 
luokittelemiseksi. Lohkossa 501 luetaan sydtetietovirrasta ketralla kasiteltava osa, 
joka esimerkiksi luonnoUista kieM luokiteltaessa voi olla esimerkiksi tiedonliaku- 
pyyntd, lause, virke tai kasky parametreineen. KSsiteltavasta syGtetietovirran osasta 

25 eroteUaan elementit, jotka tassa kasiteltavan esimerkin mukaisesti ovat siis sanoja 
mtteineen tai merkkijonoja. Lohkossa 502 kasiteltava syGtetietovirran osa ryhmitel- 
laan segmentteihin tiettyjen muistiyksikk66n taUennettujen saantiSjen tai kayttajan 
maaritysten mukaisesti. Segmentti voi sisaima yhden tai useamman elementin. Vai- 
heessa 503 verrataan yhden tai useamman elementin sisaltavia syGtetietovirran 

30 segmentteja kokonaisuutena tietamyskannassa jo oleviin segmentteihin. Mikali si- 
sailGltaan taysin vastaavaa segmenttia ei loydy. siirrytaan lohkoon 504, jossa ele- 
mentit analysoidaan joko jollain jarjestelman sisaiselia mekanismilla tai joUain eril- 
liseUa analysaattoriUa. Jokaisesta elementista tuotetaan analyysitulos, joka tyypilli- 
sesti luonnoUisen kielen tapauksessa perustuu leksikaaliseen tai morfologiseen ana- 

35 lyysiin, formaalin kielen tapauksessa syntaktiseen analyysiin. 
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Vaiheessa 505 veirataan segmenteittain syOtetietoviiran elementtien analyysitulok- 
sia, eli segmenttien luokitusta, tietamyskantaan tallenneltujen segmenttien luokituk- 
siin. Jollei vastaavaa segmentda luokittelim perasteellakaan loydy, suoritetaan 
poikkeuskasittely lohkossa 506. Poikkeuskasittely on jokin ennalta maaratty toimin- 

5 to tai menettely, jossa voidaan esimerkiksi luoda syiJtetietoviiran segmentistS uusi 
tietamyskantasegmentti, kasitelia jokaista elementtia yhtena segmenttina tai suorit- 
taa uusi segmentointi. Taman jalkeen suoiitus siirtyy vaiheeseen 508. Jos vaiheessa 
505 veiratut analyysitulokset vastaavat toisiaan, siirtyy suoritus lohkoon 507, jonne 
siiirytaan mytts vaiheesta 503, jos syOtetietovirran ja tietamyskannan segmentit vas- 

10 taavat toisiaan. Lohkossa 507 assosioidaan syiStetietovirran segmenttiin sita vastaa- 
va tietamyskannassa jo oleva segmentti. 

Vaiheessa 508 tarkastetaan, onko kasiteltavassa syetetietovirran osassa viela kasitte- 
lemattdmia segmentteja. Jos segmentteja on viela kasittelemMtta, siirtyy suoiitus al- 
kuun lohkoon 503, jotta kaikki kasiteMvan syStetietovirran osan sisaitamat seg- 

15 mentit kaydaan lapi. Muuten siirrytaan lohkoon 509 tarkastelemaan, sisaltyvatkO 
nyt luokitellut segmentit johonkin ylemman tason segmenttiin. Tallainen tilanne voi 
esiintya esimerkiksi, kun keksinnOn eduUisen suoritusmuodon mukaista luokittelijaa 
kaytetaan luonnollisia tai formaalia kielia kaannettSessa tai valuuttoja konvertoita- 
essa. Ylemman tason segmentit selkeyttavat ja yksinkertaistavat toimintaa esimer- 

20 kiksi silloin, kun valuuttojen tunnukset siirtyvat useampia numeerisia elementteja 
sisaltavien rakenteiden yli eri kieUen valilla, formaalissa kielessa on sisakkaisia sil- 
mukkarakenteita, tai kun luonnollinen kieli on saksa ja segmentti sisaltaa saksankie- 
lisen lauseen, jonka rakenne ei vastaa vastinkielen rakennetta. Saksankielen esi- 
merkkitapauksessa ylemmaksi tasoksi voi mucdostua segmentti, jonka ensimmai- 

25 nen alisegmentti sisaltaa tietyn konjunktion, toinen tietyn luokituksen mukaisia 
segmentteja, jotka sisaltavat useita tuntemattomia elementteja ja viimeinen aliseg- 
mentti verbiksi luokitellun elementin. Nain voidaan yleistaa useita samankaltaisia 
tilanteita ja muodostaa niita kuvaava geneerinen segmentti tietSmyskannan ylem- 
maile tasolle valittamatta siita, tmm tarkalleen ottaen lauseen elementit ovat Tama 

30 pienentaa edelleen tietamyskannan kokoa ja nopeuttaa vertailuja. 

Lohkossa 510 tarkastellaan useanraian segmentin muodostamaa jonoa ja mtkitaan, 
kuuluvatko tai tasn^vatkd edella kasitellyt segmentit tai segmenttien jono johon- 
kin hierarkkisesti ylemman tason segmenttiin. Ylemman tason segmentti voi koos- 
tua yhdesta tai useammasta alemman tason segmentista. Jos ylempia segmentteja 
35 lOytyy, myOs niille haetaan luokitustulos 511 vastaavasti kuin alemman tason seg- 
menteillekin. Jos vastaavaa ylemman tason segmenttia ei tletamyskannasta lOydy, 
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jaa luokitteluksi alisegmenttien jono. Jos ylemman tason segmentteja ei olttt muo- 
dostettu tai kun luokittelu lohkossa 511 on tehty, tarkastellaan lohkossa 512, onko 
kasiteltavSssa sydtetietoviiran osassa viela segmentteja, jotka voidaan assosioida 
joksikin toiseksi ylemmSn tason segmentiksi. MikaU tailaisia loytyy, suoritusta jat- 

5 ketaan lohkosta 510. Kun segmenteista muodostuvia ylemman tason segmentteja ei 
enaa ISydeta, tutkitaan vieia vaiheessa 513 muodostavatko lOydetyt ylemman tason 
segmentit edelleen kolmannen tason segmentteja. Jos viela ylemman tason segment- 
teja lOytyy, jatketaan suoritusta lohkosta 509. TyypillLsesti alimman tason segmentit 
sisaltavat elementteja, seuraavan ylemmSn tason segmentit sisaitavat segmentteja ja 

10 mahdoUisesti my6s elementteja. Mita ylemn^e segmenttitasolle mennaan, sita 
enemman luonnollisten kielten segmentit sisaltavat tiettyja sopimukseUisia vaMoeh- 
toja, kuten esimeridksi tekstikappaleen kontekstin. FormaaUen kielten tapaulcsessa 
segmentit voivat oUa esimerkiksi kaskyja parametreineen tai kielen lauseita, jotka 
siis erotellaan toisistaan tyypiUisesti jonkin merkin avulla. TSUOin ylemman tason 

15 segmentti voi sisaltaa rakenteellista tietoa, esimerkiksi tiedon silmukasta, sisakkai- 
sism silmukoista tai aUohjelmista. Mita ylemmSlle segmenttitasoUe mennaan, sita 
enemman formaaUen kielten segmenttien sisalto lahestyy algoritmikuvausta. 

Kun hierarkkiset segmentit on lapikayty ja luokiteltu, lohkossa 514 r^ortoidaan ka- 
sitellyn syotetietovinan osan luokitus jiiden tai useamman ylemman tason hierark- 

20 kisten segmenttien jonona. Kuviossa 5 esitetyn menetehi^ mukainen datan luokit- 
telija siis assosioi l^iteltavaan syOtetietoviiran osaan jonon mahdolUsesti hierark- 
kisia tietamyskannassa olevia segmentteja. Kun kasiteliaan hierarkkisia rakenteita, 
hierarkkisten aUsegmenttien jarjestystieto on tyypiUisesti ylemman tason segmen- 
tissa. "Kn^ jarjestystieto m^ttaa alemman tason segmenttien jarjestyksen eli esi- 

25 merkiksi luonnolUsen kielen tapauksessa sanajarjestyksen, formaaUn kielen tapauk- 
sessa kaskyn tai aliohjehnakutsun parametrit, niiden tyypin, lukumaarSn ja jarjes- 
tyksen. 

Kuvion 6 suoritiismuodossa on esitetty uusien segmenttien ja vastinsegmenttien 
tuottamista tietamyskantoihin oppimisen avulla eU tietamyskannan kasvattamista 

30 ilman kayttajan vuorovaikuttista. Vaiheessa 601 luetaan kaksi toisiaan vastaavaa 
syOtetietovitran osaa. Kuvion 6 mukaisen menetehnan suorittaminen edellyttaa, etta 
kaytettavissa on kaksiosainen syatetietovirta, jonka tiedetaan sisaltavSn sama data 
kahdessa eri esitysmuodossa, jotica ovat toistensa taydeUisia vastineita. Lohkossa 
602 luokitellaan luetut toisiaan vastaavat syOtetietovirran osat esimerkiksi siUa luo- 

35 kittelumenetehnalla, joka on esitetty kuvion 5 suoritusmuodossa. Lohkossa 603 tal- 
lennetaan kumpikin syStetietovitran osa tietamyskantaan ja tallennettiille syStetie- 
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toviiran osiUe luodaan vastaavuustieto tietamyskannan avuUa siten, ettS etsi^ tie- 
tamyskannassa jo olevia segmentteja vastaavia osia seka luokittelutiilosten vastaa- 
vuuksia. TassS esitettyja tyypillisia uutta syStetietovirtaa segmentoitaessa kaytetta- 
via vertailukriteereja voidaan kayttaa useissa muissakin keksinnftn eduUisissa suori- 

5 tusmuodoissa. Ensisijainen valinta on seUainen segmentti, joka 16ytyy tietamyskan- 
nasta ja jonka jokaista elementtia vastaa juuri sama syOtetietovirran elementti. Tal- 
ISin vaiitaan pisin mahdollinen tietamyskannan vastaava segmentti ja assosioidaan 
se tarkasteltavaan syOtetietDviiran osaan. Seuraavaksi tarkasteUaan analyysituloksia. 
Jos useammaUa tietoyskannan segmentiUa on syOtetietovirran tarkasteltavaa osaa 

10 vastaava analyysitulos, vaUtaan se, jonka mahdollisimman usea elementti on vas- 
taava kuin tarkasteltavan syOtetietovirran osan. Jos vastaavia elementtejakin on use- 
ammalla tietamyskannan segmentilia saman verran, vaUtaan kulloinkin tilanteeseen 
ja sovellukseen sopivin toiminto, joka voi olla esimerkiksi se, etta segmentti vaii- 
taan kayttatiheyden mukaan siten, etta vaUtaan se. jota on kaytetty useimmin. Seg- 

15 mentilla voi myOs olla jokin semantiikkaluokitus. eU esimerkiksi toimialamaaritys, 
joka maarittaa segmentin kuuluvan tiettyyn alaan, kuten paperiteknologiaan tai bio- 
tekniikkaan. Lisaksi kullakin elementilla voi olla vastaava semanttinen luokitus. 
Segmentit voivat Usaksi sisaltaa niin sanoton leiman, eU prioriteetin, joka kertoo 
vaikkapa, etta tietty segmentti on virallinen kaannSs tai tiettya segmenttia d pida 

20 kaytma kaannSksen tulostietovirran segmenttina, vaan ainoastaan sy5tetietoviiran 
luokitusta teh^essa. 

Lohkossa 604 testataan, oliko jompikumpi kasiteltavista syOtetietovirran osista ko- 
konaisuutena jo tietamyskannassa. Jos syotetietovirran osaa vastaava lohko lOytyy 
tietamyskannasta, on tiemmyskannassa my5s tieto tailaisen syotetietovirran osan si- 

25 saltamista segmenteista. Liiydetyn segmenttijaon mukaisesti lohkossa 605 myGs 
syotetietovirran bsa jaetaan segmentteihin. Lisaksi lohkossa 605 haetaan kaannOkset 
eU vastinsegmentit ja niiden vastaavuustieto etsimalia tietamyskannasta tunnettujen 
segmenttien ja luokitusten vastaavuuksia, minka jalkeen suoritus loppuu lohkossa 
610. Jos lohkossa 604 ei lOydy koko sy6tetietovirran osaa vastaavaa lohkoa tieta- 

30 myskannasta, l^ittely siirtyy lohkoon 606. 

Lohkossa 606 vieia kasittelemattomia syotetietovirran osia verrataan tietamyskan- 
nan segmentteihm milla hyvansa sopivalla segmenttikooUa ja tietamyskannasta etsi- 
taan parhaiten kasittelematOnta syOtetietovitran osaa vastaavaa segmenttia. Jos tie- 
tamyskannasta I5ydetaan segmentti, joka vastaa jotain osaa kasiteMvasta syOtetie- 
35 tovinran osasta, haetaan lohkossa 608 talle syStetietovirran osaUe eU segmentille tie- 
tamyskannasta vastaava segmentti ja vastaavuustieto. Naiden pemsteella varsinai- 
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nen kSannas eU vastinsegmentti lOytyy tietamyskannasta. Lohkossa 609 tarkaste- 
taan. onko kasiteltavasta sy5tetietovirran osasta viela osioita l^ittelematta. TSs^ 
siiirytaan lohkoon 606 kasittelemaan loppua syStetietoviiran osaa, kunnes kaikiUe 
syotetietovirran segmenteiUe on luotu tai ISydetty vastaavat segmentit. Jos lohkossa 
5 606 ei lOydeta taipeeksi hyvas segmenttia tietamyskannan kummastakaan osasta, 
siiiryman lohkoon 607. Vaiheessa 607 jaljelle jaSneita syiJtetietovirran osia sovite- 
taan toisiinsa, ja niista tuotetaan segmentit ja luodaan vastinsegmenttitieto. Taman 
jalkeen lopetetaan suoritus lohkossa 610. 

Varsinainen datan kaSntaminen automaattisesti tapahtuu keksinniin eraan edullisen 
10 suoritusmuodon mukaan kuviossa 7 esitetylia tavaUa. Aluksi luetaan sydtetietovir- 
ran osa lohkossa 701. Kasiteltava syotetietovirran osa myos luoMtellaan lohkossa 
701, mahdoUisesti hierarkkisten segmenttien jonoksi, esimerkiksi kuvion 5 yhtey- 
dessa esitetyn luokittelumenetehi^ mukaisesti. Lohkossa 702 jokaiselle kasiteM- 
van syotetietovirran osan segmentiUe haetaan vastinsegmentti vastmsegmenttien tie- 
15 tamyskannasta. Jotkut segmenteista voivat muodostaa myOs ylemman tason seg- 
mentin. Seuraavaksi haetaan vastinsegmentteja Kiydetyille ylemman tason segmen- 
teiUe tietamyskannasta lohkossa 703. Jos ylemn^ tason segmenteiUe ei Ibydeta 
vastinsegmentteja, jaa tulokseksi jono alemman tason segmentteja. Vastinsegmentit 
ja edeUeen vastinsegmenttien elementit jarjestetaan jarjestystiedon mukaiseen jSr- 
20 jestykseen. Jarjestystietohan voi sijaita segmenteissa tai assosiaatiotiedossa eU tie- 
tamyskannan segmentit vastinsegmentteihinsa yhdistavassa vastaavuustiedossa. 
Tama vastaavuustieto puolestaan voi sijaita joko segmenteissa tai niista eriUaSn. 
SeUaisiUe elementeiUe, joUle ei ole vieia Idydetty vastinelementteja, tuotetaan vas- 
tinelementit lohkossa 704. Naim vastmelementteja voidaan hakea vastinelementtien 
25 tietokannasta tai tuottaa analyysimlosten perusteeUa joUain sopivaUa generaaftoriUa. 
Generaattori voi kayttaa hyvakseen esimerkiksi sanakirjatyyppista vastmelementti- 
en tietokantaa vastinelementin rungon hakemiseksi ja muokata sen analyysitulosten 
mukaisesti haluttuun muotoon. Lopuksi lohkossa 705 tuotetaan kasiteMvan syote- 
tietovirran osaa vastaava tulosvirran osa vastinsegmenttien sisal^mien elementtien 
30 seka generoitojen vastinelementtien jonona. jotka on jarjestetty jarjestystiedon mu- 
kaisesti segmenttien sisaUa. Kun l^annOs on valmis. se voidaan viela UsSta tieta.- 
m3rskantaan. 

Usein kuitenkin tietamyskannan koko halutaan pitaa suhteeUisen pienena, koska 
haku on taUOin nopeampaa, eika tietorakenne vie paljoa tilaa, vaan mahtuu keskus- 
35 muistiin. Varsinkin hierarkkisia segmentteja sisaltaviin tietamyskantoihin on turha 
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taUentaa kaikkia sisaltiivaihtoehtoja, koska ne IQytyvat olemassa olevien tietojen pe- 
rasteella tehokkaammin kuin isosta tietamyskannasta hakemalla. 

Tassa hakemuksessa l^itellaan esimerkkit^auksena luonnollisen kielen kaanta- 
misa, mutta on ilmeista, etta keksinnOn mukaista menetelmaa voidaan yhta hyvin 
soveltaa esimerkiksi puheen, kuvien ja formaaUen kieUen luokitteluun ja tunnista- 
miseen. Lisaksi lasiteMvat elementit voivat oUa esimerkiksi lukuja, matriiseja, 
merkkijonoja, konekielisia l^kyja tai parametreja. Formaalien kielten kaantaminen 
ja luokittelu on erittain tarkeaa, kun halutaan kayttaa ja yhtenaistaa erimuotoista tie- 
toa ja dataa eri lahteista. 

Yleensakin haettaessa tietoja ja tehtaessa kyselyja on tarkeaa, etm tunnistetaan ja 
otetaan osaksi tulostietovirtaa mySs laheisiksi tuUdttavat, liiydetyt segmentit. 'm- 
I5in kriteereina voidaan kayttaa esimerkiksi jo tassa hakemuksessa mainittua se- 
manttista laheisyytta, jossa tutkitaan merkityksia. SoveUusmuodosta riippuen voi ol- 
la eduUista tarkasteUa vaihtoehtoisesti tai Usaksi vaikkapa leksikaalista eU sanastol- 
Usta tuMntaa, morfologista eU muoto-opilUsta tulkintaa tai syntaktista eU lauseopil- 
lista tai syntaksiin liittyvaa tulkintaa. MikaU toivottua luokittelua tai kaannosta ei 
saada taotettua, voidaan keksinnCn erSan edullisen suoritusmuodon mukaan suorit- 
taa esimerkiksi luokittelu tai jokin muu osatoiminto tai koko kaannos kayttaen vas- 
taavaa keksinnOn edullisen suoritusmuodon mukaista laitteistoa ja menetelmaa, jo- 
hon on olemassa tai voidaan muodostaa tietoUikenneyhteys. Toinen vastaava jarjes- 
telma voi esimerkiksi kasitelia ensisijaisesti tietyn erityisalan segmentteja tai ele- 
mentteja. LisSksi useamman laitteiston kayt6ssa voi olla yhteen muistiyksikkdSn 
tallennettuna esimerkiksi segmentointisaantSja, poikkeussaantOja ja muunnossaan- 
taja seka Ustauksia semanttisesti, leksikaaUsesti, morfologisesti ja syntaktisesti toi- 
siaan vastaavista elementeista ja segmenteista. 



Patenttiyaatimukset 
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1 . Menetelma elementteja (21 1, 212, 213, 221, 222, 223) sisaitavan syotetietovir- 
ran (200) datan kasittelemiseksi segmentteja sisaltavan tietamyskannan avulla, tun- 

5 nettu siita, etta menetelma sisaltaa vaiheet, joissa 

- luetaan (501) kasiteMva osa syotetietoviirasta (200) ja jaetaan kasitel- 
tava syStetietovirran osa elementteihin (211, 212, 213, 221, 222, 223), 

- ryhmitellaan kasiteMva osa syotetietovirtaa (200) segmenteiksi (502), 
joista jokainen segmentti (210, 220) sisaltaa yhden tai useampia element- 

10 teja (211, 212, 213, 221, 222, 223), 

- analysoidaan kasiteltavan syiStetietoviiran osan elementit ja tuotetaan 
analyysitulosten pemsteella segmenttikohtaiiien luokitus, 

- verrataan syotetietovirran segmenttien (210, 220) luokitusta tietamys- 
kaiman segmenttien (31, 32) luokituksiin ja assosioidaan tietamyskannan 

15 segmentti sen luokitusta vastaavaan syOtetietovirran segmenttiin, ja . 

- raportoidaan tulos, joka on kasiteltavaan syotetietovirran osaan assosioi* 
tu joukko tietamyskaimassa olevia segmentteja. 

2. Patenttivaatimuksen 1 mukainen meneteln^ tmmettu siita, ettM ainakin yksi 
segmentti (210, 220) sisaltaa ainakin kaksi elementda (211, 212, 213, 221, 222, 

20 223), ja segmenttikohtainen luokitus maaritetaan ainakin kahden mainitun elemen- 
tin (211, 212, 21.3, 221, 222, 223) analyysituloksen pemsteella. 

3. Patenttivaatimuksen 1 mukainen menetelma, tunnettu siita, etta elementtien 
analyysitulokset katenoidaan segmenttikohtaisen luokituksen muodostamiseksi. 

4- Patenttivaatimuksen 1 mukainen menetelma, tunnettu siita, etta sy5tetietovir- 
25 ran segmentin luokitus toimii hakuavaimena etsitiaessa samoin luokiteltua tieta- 
myskannan segmenttia. 

5. Patenttivaatimuksen 1 mukainen menetelma, tunnettu siita, etta. segmenteiksi 
ryhmittelyn jalkeen tehdaan vaihe, jossa kasiteltavaa syotetietovirran osaa verrataan 
segmenteittain (210, 220) tietamyskannan segmentteihin (31, 32) ja toisiaan vastaa- 
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vat segmentit assosioidaan keskenaan, minka jSlkeen analysointivaihe tehdaSn aino- 
astaan niille segmenteille, joille ei lOydy vastaavaa tietamyskannan segmenttia. 

6. Patenttivaatiinuksen 5 mukainen menetelma, tunnettu siita, ettS jos yhta sy6- 
tetietoviiran segmenttia vastaa tietamyskannan segmentteihin verrattaessa useampi 

5 segmentti, valitaan niista yksi segmenttL soveltaen ainakin yhta seuraavista kritee- 
leista: 

- valitaan segmentti, jossa on eniten syStetietovirran elementteja, 

- valitaan segmentti, jonkakayttajailmaisee, . 

- valitaan segmentti, jota on kaytetty useimmin, 

10 - valitaan segmentti, jonka semanttin^ luokitus vastaa syStetietovirran 

vastaavan osan luokitusta, 

- valitaan segmentti, jonka elementtien semanttinen luokitus vastaa syii- 
tetietoviiran vastaavan osan luokitusta. 

7. Patenttivaatimuksen 1 mukainen meneteln^ tunnettu siita, etta tietamyskan- 
15 taan sisallytetaan eri pituisia, osittain samansisaiteisia segmentteja, joiden avuUa 

kasiteltava osa syOtetietovirtaa ryhmitellaan segmenteiksi optimaalisesti tapauskoh- 
taisesti. 

8. Patenttivaatimuksen 1 mukainen menetelma, tunnettu siita, etta syOtetietovir- 
ran ryhmittely segmenteiksi tehdaSn ainakin jollain seuraavista menetelmista: 

20 - segmentiksi valitaan jo tietamyskannassa oleva, sydtetietovirran osaa 

elementeiltaan tai luokitukseltaan vastaava segmentti, 

- segmentti maaritetaan kaytmjan ohjeiden mukaisesti, 

- kieleUisesta kokonaisuudesta mnodostetaan segmentti, 

- fraasista muodostetaan segmentti, 
25 - segmentti katkaistaan valimerkkiin, 

- segmentti katkaistaan tiettyihin listattuihin vaiikesanoihin, 

- segmentti muodostetaan jaljelle jaaneesta syOtetietovirran osasta, kun 
sydtetietovirran osasta muilla keinoilla Ibydetyt segmentit on poistettu. 
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9. Patenttivaatimuksen 1 mukainen menetelma, tunnettu siita, etta segmentit 
muodostavat hierarkkisia rakenteita, joissa tietty ylemman tason segmentti sisaltaa 
tietoa tietyista alemman tason segmenteista, ja menetelmS sisSltsa vaiheen, jossa 
kasiteltavaan syotetietovirran osaan (200) assosioidaan tietSmyskaiman ylemn^ 

5 tason segmentteja (509), jotka sisSltSvat syOtetietoviiran segmentteihin assosioituja 
tietamyskannan alemman tason segmentteja. 

10. Patenttivaatimuksen 1 mukainen menetelma, tunnettu siita, etta syotetietovir- 
ran segmentille suoritetaan poikkeuskasittely (506) tiettyjen ohjeiden mukaisesti ti- 
lanteessa, jossa vastaavaa segmentin luokitusta ei lOydy tietamyskannasta. 

10 11. Patenttivaatimuksen 1 makainen menetelma, tunnettu siita, etta elementeille 
tehtava analyysi on morfologisen analyysi, jonka tuloksena tuotetaan tiettyja, mai- 
nittuja elementteja kuvaavia piirteita. 

12. Patenttivaatimuksen 1 mukainen menetelma, tunnettu siita, etta datan kaan- 
tamiseksi kohdekielelle haetaan tuloksen segmenteille (210, 220) vastinsegmentit 

15 (33) kahden tai useamman kielen tietamyskannasta, ja tuotetaan tulosvirtana vas- 
tinelementteja (401, 402, 403) sisaltSva vastinsegmenttien (400) joukko. 

13. Patenttivaatimuksen 12 mukainen meneteM, tunnettu siita, etm syStetieto- 
virran elementeille (211, 212, 213, 221, 222, 223), joille ei Idytynyt vastaavuuksia 
tietamyskannasta, taotetaan vastinelementit tiettyjen, tietamyskannan elementteihin 

20 (331, 332, 333) liittyvien analyysitulosten perusteella ja/tai erillisen, elementteja 
tuottavan generaattorin avulla. 

14. Patenttivaatimuksen 12 mukainen menetelma, tunnettu siita, etta datan kaan- 
tamisessa tuotettava tulosvirta sisSltaa vastinsegmenttien (400) elementteja (401, 
402, 403) ja erikseen tuotettuja elementteja segmenttijonona siten, etta kunkin seg- 

25 mentin sisainen vastinelementtien jarjestys maaritetaan vastinsegmenttien sisalta- 
mlbi jarjestystiedon perusteella. 

15. Patenttivaatimuksen 12 mukainen menetelma, tunnettu siita, etta datan kaan- 
tamisessa tuotettava tulosvirta sisaltaa vastinsegmenttien (400) elementteja (401, 
402, 403) ja erikseen tuotettuja elementteja segmenttijonona siten, etta kunkin seg- 

30 mentin sisainen vastinelementtien jarjestystieto maaritetaan segmenttien ja niiden 
vastinsegmenttiCTi vaiisessfi vastaavuustiedossa. 

16. Patenttivaatimuksen 1 mukainen menetelma, tunnettu siita, etta tietamyskan- 
nan muodostamiseksi 
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- luetaan kaksi toisiaan vastaavaa syStetietovirran osaa (601) ja jaetaan ne 
elementteihin, 

- luokitellaan kerralla kasiteltavat sydtetietovirtojen osat, 

_ haetaan kasiteltavalle syOtetietoviiran osalle segmenttijako, vastinseg- 
5 mentit ja edellisten valiset vastaavuustiedot (603, 605, 608) tietSmyskan- 

nassa olevien segmenttien ja niiden luokituksen perusteella, ja 

- sovitetaan segmentoimattomat, vastinsegmentittOiMt osat kMsiteltavista 
syStetietovirroista toisiinsa (607), muodostetaan niism.segmentit, luodaan 
segmenteille vastinsegmentit ja niiden vMlinen vastaavuustieto. 

10 17. Patenttivaatimuksen 16 mukainen menetelma, tunnettu siita, etta segmenttien 
vastaavuustieto, vastinsegmentit ja segmenttijako luodaan tietamyskantaan (33) jo 
tallennettujen segmenttien ja/tai niiden luokittelun perusteella. 

18. LaitteistD elementteja (211, 212, 213, 221, 222, 223) sisSltavSn syOtetietovir- 
ran (200) datan kasittelemiseksi, tunnettu siita, etta laitteisto sisaitaa 

15 - muistiyksikot (101, 102) segmentteja sisaimvan tietamyskannan, ha- 

kuindeksien, tietojen ja syetetietovixran kasiteMvan osan tallentamiseksi, 

- valineet (102, 103, 106) syStetietoviiran lukemiseksi, 

- valineet (103, 104, 105) syOtetietovirran jakamiseksi elementteihin, 

- valineet (103, 104, 105) syatetietovirran ryhmittelemiseksi elementteja 
20 sisaitaviin segmentteihin, 

- valineet (103, 104, 105) syatetietovirran elementtien analysoimiseksi ja 
segmenttikohtaisen luokituksen tuottamiseksi analysointitulosten perus- 
teella, 

_ valineet syStetietovirran segmenttien luokituksen vertaamiseksi tieta- 
25 myskannan segmenttien luokituksiin ja toisiaan vastaavien segmenttien 

assosioimiseksi toisiinsa, ja 



- valineet (514) segmenttien luokittelun raportoimiseksi. 
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19. Patenttivaatimuksen 18 mukainen laitteisto, tunnettu siita, etta laitteisto sisal- 
m lisaksi valineet (103, 104, 105) sy5tetietovirran segmenttien vertaamiseksi tie- 
tamyskannan segmentteihin. 

20. Patenttivaatimiiksen 18 mukainen laitteisto, tunnettu suta, etta laitteisto sisai- 
tM Usaksi valineet (101, 103, 106) vastinelementteja sisaltavien vastinsegmenttien 
tuottamiseksi jonona, joka muodostaa tulosvirtan. 

21. Patenttivaatimuksen 18 mukainen laitteisto, tunnettu siita, etta laitteistolla on 
yhteys elementteja tuottavaan generaattoriin elementtien tuottamiseksi analyysitu- 
losten perasteella. 

22. Patenttivaatimuksen 18 mukainen laitteisto, tunnettu siita, etm muistiyksi- 
kSissa (104, 105) on segmentointitiedot syStetietoviiran osan jakamiseksi segment- 
teihin jajarjestystiedot tulostietovirran segmenttien elementtien jarjestyksen masrit- 
tamiseksi. 

23. Patenttivaatimuksen 18 mukainen laitteisto, tunnettu siita, etta muistiyksik5s- 
sa (104, 105) on tietamyskanta segmenttien, elementtien, luokitusten, vastinseg- 
menttien ja vastinelementtien tallentamiseksi. 

24. Patenttivaatimuksen 18 mukainen laitteisto, tunnettu siita, etta laitteistossa on 
I/O-liityntdja (106) sy0tt6- ja tulostietovirtojen lahettamiseksi ja vastaanottamiseksi 
seka yhteyden muodostamiseksi muihiQ jarjestelmiin ja/tai kayttajiin. 

25. Patenttivaatimuksen 18 mukainen laitteisto, tunnettu siita, etta laitteisto sisal- 
taa valineet koko kasiteltavMn syOtetietovirran osan vertaamiseksi tietamyskannan 
segmentteihin (606) milia hyvansa segmenttikoolla. 

26. Patenttivaatimuksen 18 mukainen laitteisto, tunnettu siita, etta laitteisto sisSl- 
taa yaiineet matemaattisten ilmaisujen lukemiseksi ja kasittelemiseksi. 

27. Patenttivaatimuksen 18 mukainen laitteisto, tunnettu siita, etta laitteisto sisai- 
^a valineet formaalien kielien lukemiseksi ja kasittelemiseksi. 

28. Patenttivaatimuksen 18 mukainen laitteisto, tunnettu siita, etta laitteisto sisai- 

taa 

- valineet (102, 103, 106) luonnollisen kielen lukemiseksi. 
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- valineet (103, 104, 105) luonnollisen kielen jakamiseksi elementteihin, 
jotka ovat sanoja mtteineen, 

_ valineet (103, 104, 105) luonnollisen kielen ryhmittelemiseksi segment- 
teihin, jotka ovat sanoja sisSltavia kokonaisuuksia, 

- valineet (103, 104, 105) luonnollisen kielen kasiteltavan osion luokitte- 
lemiseksi leksikaalisen, morfologisen, syntaktisen tai semanttisen analyy- 
sin perusteella, ja 

- valineet (101, 103, 106) vastinsanoja sisaimvien vastinsegmenttien tuot- 
tamiseksi. 

29. Patenttivaatimuksen 28 mukainen laitteisto, tunnettu siita. etta laitteistolla on 
tietoliikenneyhteys vastaavaan laitteistoon jonkin osatoiminnon suorittamiseksi. 



t 



(57) Tiivistelma 



KeksintO koskee menetelmaa ja laitteistoa elementteja 
(211, 212, 213, 221, 222, 223) sisSltavan syStetietovirran 
(200) datan luokittelemiseksi segmentteja sisaMvSn tieta- 
myskannan avulla. KeksinnOn soveltuu erityisesti kielien 
kMntamiseen. 

MenetelmMssa luetaan (501) kasiteMva osa syStetietovir- 
rasta (200), jaetaan se elementteihin (211, 212, 213, 221, 
222, 223) ja ryhmiteliaan kasiteMva osa syOtetietovirtaa 
(200) segmenteiksi (502) siten, etta jokainen segmentd 
(210, 220) sisaltaa yhden tai useampia elementteja (211, 
212, 213, 221, 222, 223). KasiteMvan syOtetietoviiran osan 
elementit analysoidaan ja analyysitulosten penisteella tuo- 
tetaan segmenttikohtainen luokitus. Segmentin luokitusta 
verrataan tietamyskannan segmenttien (31, 32) luokituksiin 
ja toisiaan vastaavat segmentit assosioidaan toisiinsa. Ta- 
man jaikeen raportoidaan luokittelun tulos, joka on kasitel- 
tavaan syetetietovirtaan assosioitu joukko tietamyskannas- 
sa olevia segmentteja. 
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